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多 少 世纪 以 来 ,人 们 曾 试图 用 数学 方法 解决 分 类 问题 ,但 是 进展 缓慢 , 直到 本 世纪 40 
年 代 ,电子 计算 机 技术 发 明 以 后 才 有 所 突破 。 一 经 突破 就 得 到 发 展 和 广泛 应 用 。 

30 年 代 美国 心理 学 家 R. C. Tryon 首创 聚 类 分 析 方法 研究 心理 学 。 50 年 代 电 子 
计算 机 技术 兴起 以 后 , 许多 生物 学 家 使 用 数学 方法 去 解决 分 类 问题 。 数学 与 生物 分 类 学 
相互 渗透 产生 了 一 门 愉 新 的 边 绿 学 科 一 一 数量 分 类 学 《Numerical Taxonomy)2”。 数 量 分 
类 学 的 产生 ， 为 生物 分 类 提供 了 一 种 比较 科学 的 方法 ， 给 生物 分 类 学 开拓 出 新 的 发 展 前 
景 ,古老 的 生物 分 类 学 正在 从 定性 的 ,描述 性 的 水 平 向 定量 的 ,更 精确 的 高 水 平 梦 登 ,使 人 
类 对 有 机 体 的 亲缘 关系 的 认识 更 接近 客观 实际 。 

本 文 对 分 类 的 各 种 数学 方法 给 予 综述 性 介绍 ， 并 对 经 常 使 用 的 距离 系统 分 类 法 举 实 
例 进 行 演算 , 以 供 有 关 学 者 参考 。 

数量 分 类 学 的 广泛 应 用 ,促使 它 的 数学 理论 迅速 发 展 ,许多 数学 家 被 吸引 从 事 分 类 问 
题 的 研究 ,各 种 数学 工具 包括 集合 论 、 Ail MERIC BIC, 统计 数学 和 线性 代数 都 被 引 
用 进来 ,应 用 不 同 的 数学 理论 产生 了 不 同 的 分 类 方法 。 现 代数 学 最 新 的 成 果 , 模 糊 数 学 也 
被 用 于 分 类 产生 了 模糊 分 类 法 。 方 法 的 多 样 性 满足 各 种 生物 分 类 问题 的 不 同 需 要 。 下 面 
分 别 介绍 : 

系统 分 类 法 (Hierarchic methods of classification) 这 是 由 几何 ,代数 和 统计 等 运算 组 成 
的 多 种 分 类 方法 。60 年 代 末期 Lance, Williams 和 Wishart 把 六 种 不 同 的 方法 总 结 于 
统一 的 公式 : 

Di, = apDip + caDia + Dia + v |Dip — Diq| > 
其 中 Dips Dig 和 Do 表示 聚合 前 类 群 之 间 的 距离 ，Dar 表示 聚合 后 的 距离 ; op, aq. 8 My 
是 待定 参数 。 和 4 两 个 类 群 合并 以 后 , 需要 计算 新 类 群 的 距离 系数 Dio 不 同 的 一 组 参 
数 给 出 不 同 的 计算 公式 , 由 此 获得 不 同 的 分 类 方法 。 现 在 已 经 有 八 种 方法 总 结 在 这 个 公 
式 中 , 见 表 1。 这 个 公式 如 果 将 平方 都 取消 ,也 适合 于 非 距离 系数 。 

表 中 nnno 和 ng 分 别 表示 类 群 Ga Grn Go MG, 中 的 分 类 单位 个 数 。G* 与 G, A 
并 以 后 得 新 类 群 G,, 因此 n, = np 十 na. 

这 样 的 总 结 意义 很 大 ,许多 不 同 的 分 类 方法 可 以 编 在 同一 个 电子 计算 机 程序 中 ,为 分 
类 运算 工作 提供 方便 。 

系统 分 类 法 发 展 较 早 ,理论 和 方法 都 比较 完善 ,是 一 个 比较 定型 的 成 熟 的 方法 , 它 在 
生物 分 类 中 的 应 用 非常 广泛 。 

图 论 分 类 法 (Graph theoretical methods of classification》 组 合 数 学 中 的 图 论 应 用 于 分 
类 产生 了 图 论 分 类 法 。 这 种 方法 利用 无 向 图 理论 中 最 小 生成 树 (Minimal spanning tree) 
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方 法 ap Ca 8 v 
1 1 一 1 
最 短 距离 法 单 联 法 2 7 0 了 
1 I 1 
最 长 距离 法 全 联 法 7 z å 3 
WPGMA 法 (8 = 0) 
HIERE z 4 a 二 <86<0 0 
中 线 法 ( 8= arg 2 2 4 
ni 十 np nit na =n; 
离 差 平方 和 法 ay. Gate at a 9 
E ù 法 = = E 0 
类 平均 法 ”UPGMA 法 = 0 0 
可 变 类 平均 法 Sood gaa 6<1 0 
r nr 
可 变 法 -二 L= 8<1 0 


i S O S 
的 概念 ,把 所 有 被 分 类 的 单位 都 连接 在 一 起 (图 1, ER ERUN DATK o 
这 就 是 图 论 分 类 法 的 思想 。 如 何 构造 最 小 生成 树 是 这 个 
方法 的 关键 。Prim' 和 Kruskalpl 各 自给 出 了 二 种 不 同 / \ re > 


方法 去 构造 最 小 生成 树 。1971 年 Zahn 又 对 图 论 方法 ( ; 7 | 
作 了 总 结 。 SS 

图 论 方法 的 另 一 个 发 展 方向 是 与 分 支 性 谱系 的 分 类 Ne ee 
(Cladistic classification) #524 & » 70 年 代 随 着 分 子 生 物 学 的 图 1 


发 展 ， 图 论 分 类 法 在 分 子 遗 传 和 分 子 进化 中 被 应 用 于 研 
帘 各 种 蛋白 质 和 核酸 的 分 类 ， 从 分 子 的 水 平 上 阐明 遗传 与 进化 的 规律 。 

图 论 分 类 法 的 理论 很 不 完整 ,有 待 解决 的 问题 很 多 ,由 于 应 用 较 广 ,正在 发 展 中 。 

主 分 量 分 类 法 (Principal component methods of classification) ”多 元 统计 数学 中 主 分 i 
分 析 (Principal component analysis》 理 论 也 应 用 于 分 类 。 在 分 类 问题 中 , ASME ME 
有 相关 性 ,如 果 在 以 特性 为 坐标 的 多 维 空间 中 能 找到 一 个 方向 ,特性 在 这 个 方向 上 反映 的 
离 差 变化 最 大 ,就 确定 了 一 个 向 量 称 为 第 一 主 分 量 ,其 次 为 第 二 、 三 .…… 主 分 量 。 对 主 分 
量 的 寻找 , 犹如 从 复杂 特性 的 事物 中 抓 位 了 主要 矛盾 。 主 分 量 分 类 法 就 是 利用 抓 主要 蔬 
盾 的 运算 技巧 ,把 一 个 复杂 的 分 类 问题 简化 为 低 维 空间 上 的 简单 问题 ,从 而 使 分 类 问题 迎 
刃 而 解 。 

主 分 量 分 类 法 发 展 较 早 , 它 的 数学 理论 建立 在 线性 代数 的 矩阵 与 二 次 型 理论 之 上 ,其 
有 严谨 的 数学 推导 ,在 应 用 时 又 与 图 论 分 类 法 相 结 合 , 更 能 发 挥 其 优越 性 , 因此 它 比 系统 
分 类 法 更 完善 ,更 细致 。 

主 分 量 分 析 方 法 不 仅 可 以 解决 分 类 问题 ， 还 可 以 分 析 生 物 分 类 系统 与 生活 环境 的 六 
系 。 在 生物 学 中 具有 广泛 的 用 途 。 

信息 分 类 法 (Informational methods of classification) ”从 电信 技术 中 发 展 起 来 的 数学 
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离散 性 (Diversity)。 较 好 的 分 类 希望 得 到 离散 程度 较 小 ,倾向 于 清一色 的 类 群 ,这 就 是 信 
息 分 类 法 的 基本 思想 。 

离散 性 的 计算 公式 很 多 ,常见 的 有 ”:; 


H = NlogN 一 > ni log n;5 
7=1 
s 
H = SN log N 一 5 [a;log a; + (N — a;) log (N — a;)] 
i=1 


s 
H = logN! 一 >, logn;!. 
i=1 


信息 论 的 内 容 虽 然 很 丰富 ,但 毕竟 是 从 电信 技术 发 展 起 来 的 ,应 用 于 生物 学 受到 很 大 
的 限制 。 应 生物 分 类 的 需要 ， 新 的 生物 信息 理论 正在 形成 和 发 展 中 。 最 近 Laxtont 做 
出 了 贡献 。 

信息 分 类 的 意义 很 大 ， 在 一 定 程 度 上 它 可 以 克服 定量 分 类 中 难于 解决 的 无 序 多 态 特 
性 编码 问题 。 在 分 子 生物 学 中 , 蛋白 质 序列 氨基 酸 的 排列 和 核酸 分 子 中 核 昔 酸 的 排列 都 
与 电信 编码 有 着 类 似 之 处 ,从 分 子 水 平 探索 生物 演化 的 系统 关系 ,信息 分 类 法 将 有 更 广阔 
的 前 途 。 

模糊 分 类 法 (Fuzzy methods of classification) 这 是 当前 最 年 青 的 一 个 分 类 方法 ， 这 
个 方法 基于 模糊 集合 概念 。 所 谓 模 糊 集 合 其 实 是 传统 集合 概念 的 扩充 。 辟 如 在 我 们 研究 
的 某 一 高 等 植物 类 群 中 ,把 草本 植物 归于 集合 4 ,数学 上 可 以 用 特征 函数 来 描述 

jae) 一 SOs RTEA 
0 不 属于 草本 。 

传统 集合 概念 的 特征 函数 取 值 非 0 即 1, 也 就 是 说 植物 非 草本 即 木 本 ,集合 4 的 概念 是 界 
限 分 明 的 。 可 是 当 类 群 中 出 现 草 本 与 木 本 的 过 湾 类 型 时 ,该 如 何 处 理 呢 ?8 与 非 生命 科 学 
不 同 ,在 生物 学 中 有 机 物 表 现 的 性 状 许 多 都 是 界限 不 明确 的 、 模 糊 的 。 为 了 描述 这 种 模糊 
的 现象 ,需要 把 集合 的 特征 函数 取 值 加 以 扩充 ,假如 特征 函数 值 可 以 取 到 介 于 0 与 工 之 间 
的 值 , 如 此 扩充 了 的 集合 概念 就 是 模糊 集 。 模糊 集合 的 概念 可 以 对 生物 学 中 那些 界限 不 
明确 的 模糊 事物 给 予 描述 。 

建立 在 模糊 集合 概念 之 上 的 分 类 方法 称 为 模糊 分 类 法 。 模 糊 分 类 更 能 适合 生物 分 类 
的 需要 ,因此 它 的 理论 发 展 很 快 。 从 1965  Zadeh™ 创立 模糊 数学 以 来 , 短 短 的 十 多 年 发 
表 的 论文 已 在 40 多 篇 以 上 ,以 J. Bezdek’) 的 贡献 最 大 , 近 几 年 又 有 将 各 种 分 类 方法 
与 模糊 理论 综合 在 一 起 的 新 动向 。 由 于 它 的 方法 新 颖 ,适合 生物 学 的 需要 ,很 可 能 给 定量 
的 分 类 技术 带 来 新 的 突破 。 

分 类 的 数学 方 靶 很 多 ,上 面 介绍 的 分 类 方法 中 , 以 距离 系数 的 系统 分 类 法 应 用 最 广 。 
下 面 就 这 个 方法 举 出 一 个 演算 的 实例 。 

取 桔 梗 科 中 六 个 种 为 演算 的 例子 ,特性 编码 数据 见 表 2。 分 类 取 用 了 8 个 特性 : 株 
高 、 葵 缠 绕 与 否 、 叶 的 着 生 方式 . 叶 缘 饥 齿 性 状 、 花 序 . 子 房 室 数 . 果 实 开 裂 方式 和 种 子 是 否 
具 惨 等 ,为 了 使 演算 尽量 简单 而 便于 说 明 , 对 特性 的 选取 和 编码 做 得 十 分 粗糙 , 当然 在 实 
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际 工作 中 应 该 做 得 远 比 此 例 更 细致 。 


R20 始 数据 








编号 种 名 
1 2 3 4 
1 | Codonopsts lanceolata Benth. et Hook. f. 羊 乳 1 1 1 0 
2 | C. pilosula (Franch.) Nannf. 党 参 1 1 1 0 
3 | Platycodon grandiflorus (Jacq.) A. DC. 桔梗 0 0 0 1 
4 | Adenophora pereskitfolia (Fisch.) G. Don 轮 时 沙 参 10 0 2 1 
5 | A. remoittflora Miq. F ®© 0 0 0 12 
6 | A. polyantha Nakai 石 沙 参 0 0 0 1 
平均 值 0.333 | 0.333 | 0.667 | 0.833 |0.833|0.667|0.833i0.167 
标准 差 0.516 |0.516|0.816|0.753|0.983 10.816|0.983|0.408 





演算 的 第 一 步 将 原始 数据 标准 化 。 为 此 , 先 计 算 每 个 特性 的 平均 值 和 标准 差 。 A 
一 特性 的 六 个 数据 值 是 yiGi =1,2,°°:, 6), Wi 


平均 值 7 一 二 (十 六 十 … 二 9 
mee {Lita + +O OPS 
再 连同 原始 数据 一 起 代 人 标准 化 变换 公式 : 


pa E (i= 1,2,..., 6)o 


对 每 个 特性 都 施行 上 面 的 运算 ,得 标准 化 数值 矩阵 : 
1.291 1.291 0.408 —1.107 一 0.848 0.408 1.187 2.041 
1.291 1.291 0.408 一 1.107 —0.848 0.408 1.187 —0.408 
—0.645 —0.645 —0.816 0.221 —0.848 1.633 0.170 —0.408 
—0.645 —0.645 1.633 0.221 1.187 一 0.816 —0.848 —0.408 
一 0.645 一 0.645 —0.816 1.550 0.170 —0.816 —0.848 —0.408 
一 0.645 —0.645 —0.816 0.221 1.187 一 0.816 一 0.848 一 0.408- 
第 二 步 计 算 相似 性 系数 。 如 果 采 用 平均 欧 氏 距离 , 第 i 和 第 i 两 个 种 之 间 的 距离 系 
数 计算 如 下 : 
D; = a [Cea 一 zi 十 …* 十 (xia 一 xja)?] ( aie a 
6 j= 1,2,-+-, 6 
其 中 zx 和 xx 一 1，2，…，8) 分 别 表示 第 ; 和 第 7 个 种 的 标准 化 数据 。 将 六 个 种 每 一 
对 距离 系数 计算 出 来 得 距离 矩阵 M(0)〈 见 表 3)。 
第 三 步 进行 分 类 运算 , 分 类 运算 的 循环 过 程 见 表 3 。 热 行 第 一 次 循环 时 先 从 M(0) 
中 找 出 最 小 值 , Dss = 0.592, 表明 种 5 和 种 6 相似 性 距离 最 近 , 应 先 将 它们 合并 成 一 个 新 
类 群 。 新 类 群 的 距离 系数 需要 重新 计算 ,从 表 1 给 出 了 八 种 不 同 的 计算 公式 ,不 同 的 计算 
方法 得 出 不 同 的 分 类 结果 。 在 此 例 取 最 容易 计算 的 最 短 距离 法 ,将 数值 代入 公式 ,实际 上 
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1 2 3 

1 0 

2 0.866 0 

3 1.553 1.289 0 

4 1.821 1.602 1.465 

5 1.895 1.686 1.109 

6 1.821 1.602 1.182 
1 2 3 

1 

2 0.866 0 

3 1.553 1.289 0 

4 1.821 1.602 1.465 

7 1.821 1.602 1.109 
8 3 4 

8 0 





7 1.602 1.109 0.866 
8 3 9 

8 0 
1.289 0 

9 1.602 1.109 0 
8 10 

8 0 

10 1.289 0 


是 取 最 小 值 运算 。 例 如 


D, 


aR I a AS M (1)。 


nn A WH 一 





WERE MC), MO), 
| 
0 05 1.0 1.5 70 

距离 系数 


图 2 最短 距离 法 ( 单 联 靶 ) 树 系 图 


表 3 分 类 运算 过 程 


4 5 6 
MO) 
0 
1.049 0 
0.866 0.592 0 
4 7 
ma) Ps = 0.592 
G, = G, + G, 
0 
0.866 0 
7 
M(2) Pu = 9-866 
G; = G, + G: 
0 
M(a) Pr = 0-866 
G; = G, + G, 
M(4) D; = 1.109 


Gyo = Gy + G; 


WE Min{ Ds,» De} 

= Min{1.895, 1.821} 

= 1.821. 

“依次 施行 前 面 的 运算 , 每 循环 一 次 一 个 类 群 被 归并 ， 


和 矩阵 减 小 一 阶 ， 直 到 将 所 有 的 种 都 归并 成 一 个 类 
群 为 止 。 

最 后 将 分 类 结果 画 成 树 系 图 (图 2)。 树 系 图 
不 仅 形象 地 显示 出 被 分 类 单位 之 间 的 隶属 关系 ， 
而 且 还 定量 地 表示 类 群 之 间 的 结合 水 平 。 例 如 种 
5 和 种 6 在 0.592 的 距离 水 平 上 相互 结合 。 

如 果 将 表 一 所 提供 的 八 种 方法 都 算出 来 ， 现 
在 要 问 究竟 选取 哪 一 个 方法 好 呢 ? 这 个 问题 涉及 
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最 优 分 类 ， 最 优 分 类 是 一 个 尚未 完全 解决 的 理论 问题 。 这 里 我 们 给 出 一 个 比较 合适 的 选 
择 方 法 。 
要 间 什 么 分 类 方法 好 , 先 必须 确立 一 个 判别 的 标准 。 
让 我 们 先 考 虑 树 系 图 ,从 树 系 图 也 给 出 种 与 种 之 间 的 相似 性 水 平 ,如 果 将 每 一 对 种 之 
间 的 相似 性 系数 都 写 出 来 ， 就 得 到 一 个 新 的 第 阵 称 为 树 系 图 的 协 表 撼 阵 (Cophenetic ma- 
trix): 
0 0.866 1.289 1.289 1.289 1.289 
0.866 0 1.289 1.289 1.289 1.289 
1.289 1.289 0 1.109 1.109 1.109 
1.289 1.289 1.109 0 0.866 0.866 
1.289 1.289 1.109 0.866 0 0.592 
1.289 1.289 1.109 0.866 0.592 0 
在 协 表 答 阵 中 分 类 结果 呈现 的 相似 性 关系 应 该 与 分 类 之 前 原来 的 相似 性 关系 (RG 
KE M(0)) 尽 可 能 一 致 。 这 个 一 致 性 显然 是 判断 分 类 好 坏 的 一 个 重要 标准 。 
有 了 判别 的 标准 就 可 以 进行 具体 计算 。 二 个 和 矩阵 之 间 的 一 致 性 有 三 个 比较 系数 可 以 
参考 使 用 ， 
M = max{|D,; — D#|}, 
a [二 3(Di; 一 D3? > 
e r- 3Dy— DD- DY) 
[3(D;; — DY - ED — D*y FF 
其 中 求 最 大 值 和 求 和 号 都 是 对 标号 :一 2， 3,-++,2 MG 二 1,2,.…, i 一 1 进行; DEM 
Di; 分 别 表示 协 表 和 矩阵 和 原 距离 矩阵 的 第 i 行 第 7 列 元 素 ，D* MD 表示 其 相应 的 平均 
值 ; 上 Rae 
将 桔梗 科 的 数据 按 表 1 所 提供 的 各 种 方法 进行 分 类 运算 ， 再 对 每 一 个 分 类 结果 算出 
M ,4 和 RR 的 值 , 计算 结果 见 表 4。 
表 4 分 类 结果 的 比较 





方 法 GR 数 ) M A R 
最 短 距离 法 ( 单 联 法 ) 0.6058 0.3185 0.9085 
最 长 距离 法 (全 联 法 》 0.6058 0.2518 0.9165 
WPGMA 3% (6 = 0) 0.3063 0.1638 0.9122 
中 线 法 (8 = —0.25) ` 0.5383 0.2694 0.8950 
离 差 平方 和 法 1.1115 0.5693 0.9081 
重心 法 0.4249 0.2105 0.9183 
UPGMA 法 0.3794 0.1532 0.9190 
可 变 类 平均 法 (6 = —0.5) 1.6334 0.9438 0.8988 
可 变法 (8 = —0.5) 1.1991 0.6395 0.9122 





从 比较 中 看 出 UPGMA 法 和 WPGMA 法 二 个 分 类 结果 优 于 其 它 的 结果 。 最 后 画 出 
这 二 个 分 类 结果 的 树 系 图 (图 3, 4)。 二 个 树 系 图 是 经 过 大 量 运算 然后 精心 挑选 出 来 的 。 
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由 于 它们 与 原来 的 相似 性 关系 有 较 高 的 拟 合 度 , 二 个 结果 差异 甚 微 。 








2 ! 2 ! 
1 1 
3 | 3 
4 i 4 | 
5 t 2 i 
i 1 
6 | 6 i 
[EES OOO | DY | 
0 0.5 10 1.5 2.0 0 0.5 10! 15 2.0 
距离 系数 距离 系数 
3 UPGMA 树 系 图 4 WPGMA HAR 


从 二 张 树 系 图 清楚 地 看 到 党 参与 羊 乳 有 较 密切 的 关系 ， 它 们 同属 于 党 参 属 (Codono- 
pis), BUDS, 荐 万 和 石 沙 参 三 个 种 比较 接近 ,它们 同属 于 沙 参 属 (Adenophora)o Ath 
碟 线 表示 区 别 属 的 截 线 。 桔梗 单独 另 立 一 属 ， 桔 梗 属 (Platycodon)， 该 属 与 沙 参 属 比较 
接近 。 定 量 分 类 的 结果 与 传统 分 类 非常 吻合 。 它 说 明 我 们 这 个 演算 的 例子 尽管 特性 的 选 


取 和 编码 都 十 分 简单 ,定量 分 类 的 方法 仍然 保持 较 高 的 可 靠 狂 。 
全 部 数值 运算 由 中 国 科学 院 计算 中 心 TQ-16 型 电子 计算 机 完成 。 
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A PRELIMINARY INTRODUCTION TO MATHEMATICAL 
METHODS FOR TAXONOMY 


XU KE-XUE 


(Laboratory for the control of drugs in Jindongnan locality Shanxi province) 


Abstract 


In this paper, the various mathematical methods applied to taxonomy are intro- 
duced to readers. Some approaches to the classification induced by statistics, graph 
theory, information theory, fuzzy mathematics are discussed. An example of classifica- 
tion (6 OTU’s with 8 characters) is given for convenience of discussion. The original 
data matrix of this example is obtained from 6 species in the family of Campanulaceae. 


